Model Cross-Attention Video Vision Transformer untuk Mendeskripsikan VideoMIFTAHUL HUDA / Ahmad Luky Ramdani, S.Komp., M.Kom / Sains Data, 2025Mendeskripsikan video otomatis merupakan tugas penting dalam pemahaman video, namun masih menghadapi tantangan dalam efisiensi komputasi dan kompleksitas arsitektur. \textit{Video Vision Transformer} (ViViT) menunjukkan performa unggul dalam menangkap informasi spasial-temporal, tetapi pendekatannya... |